Árbol de decisión C4.5 basado en entropía minoritaria para clasificación de conjuntos de datos no balanceados

نویسندگان

  • Luis Alberto Caballero Cruz
  • Asdrúbal López Chau
  • Jorge Bautista López
چکیده

Resumen. En el área de aprendizaje automático, el problema de desbalance en los datos es uno de los más desafiantes. Desde hace más de una década, se han desarrollado nuevos métodos para mejorar el desempeño de los métodos de clasificación para este tipo de problema. En este art́ıculo se presenta una modificación al algoritmo C4.5 usando el concepto de entroṕıa minoritaria. La propuesta está basada en la corrección de un error que observamos en una publicación previa. La implementación del nuevo método presentado es probada con conjuntos públicamente disponibles. Los resultados obtenidos muestran la utilidad del método desarrollado.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Método rápido de preprocesamiento para clasificación en conjuntos de datos no balanceados

Resumen. El problema de desbalance en clasificación se presenta en conjuntos de datos que tienen una cantidad grande de datos de cierto tipo (clase mayoritaria), mientras que el número de datos del tipo contrario es considerablemente menor (clase minoritaria). En este escenario, prácticamente todos los métodos de clasificación presentan un bajo desempeño. En este art́ıculo se propone un nuevo mé...

متن کامل

Arboles de decisión ID3para el diagnóstico de apendicitis aguda en niños

Resumen. La apendicitis aguda es una enfermedad de dif́ıcil diagnostico en ancianos y niños, en la mayoŕıa de los casos se presenta un dolor en el ombligo que aumenta conforme al tiempo y se dirige hacia el cuadrante inferior derecho. Por su diversidad sintomatológica, existen propuestas de diagnóstico que se limitan a unos cuantos śıntomas, signos y laboratorios. La apendicitis aguda por ser un...

متن کامل

Un Modelo para la Prediccion de Recidiva de Pacientes Operados de Cancer de Mama (CMO) Basado en Redes Neuronales

La predicción de recidiva en pacientes que han sido operados de cáncer de mama juega un papel muy importante en tareas médicas como el diagnostico y la planificación del tratamiento que hay que realizarle al mismo. En la actualidad, los expertos médicos están llevando a cabo estas tareas usando técnicas no numéricas. Las redes neuronales artificiales se muestran como una herramienta potente par...

متن کامل

Rough set data representation using binary decision diagrams

A new information system representation, which inherently represents indiscernibility is presented. The basic structure of this representation is a Binary Decision Diagram. We offer testing results for converting large data sets into a Binary Decision Diagram Information System representation, and show how indiscernibility can be efficiently determined. Furthermore, a Binary Decision Diagram is...

متن کامل

Three Similarity Measures between One-Dimensional Data Sets Tres medidas de similitud entre conjuntos de datos unidimensionales

Basadas en una distancia intervalar, se dan tres funciones para cuantificar similaridades entre conjuntos de datos unidimensionales mediante el uso de estadísticos de primer orden. Se usa la base de datos Glass Identification para ilustrar cómo esas medidas de similaridad se pueden usar para analizar un conjunto de datos antes de su clasificación y/o para excluir dimensiones. Además, se diseña ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Research in Computing Science

دوره 92  شماره 

صفحات  -

تاریخ انتشار 2015